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摘 要 


作为 一 个 十 余年 来 快速 发 展 的 畦 新 领域 , 深度 学 习 受 到 了 越 来 越 
多 研究 者 的 关注 , 它 在 特征 提取 和 建 模 上 都 有 着 相 较 于 浅 层 模型 显然 
的 优势 . 深度 学 习 善 于 从 原始 输入 数据 中 挖掘 越 来 越 抽 象 的 特征 表示 ， 
而 这 些 表示 有 具有 良好 的 泛 化 能 力 . 它 克 服 了 过 去 人 工 智 能 中 被 认为 难 
以 解决 的 一 些 问 题 。 且 随 着 训练 数据 集 数量 的 显著 增长 以 及 芯片 处 理 
能 力 的 剧 增 , 它 在 目标 检测 和 计算 机 视觉 、 上 自然 语言 处 理 、 语 音 识别 
和 语义 分 析 等 领域 成 效 卓 然 , 因此 也 促进 了 人 工 智 能 的 发 展 . 深度 学 
习 是 包含 多 级 非 线 性 变换 的 层级 机 器 学 习 方 法 首先 论述 了 深度 学 习 
的 基础 知识 , 分 析 了 算法 的 优越 性 ， 并 介绍 了 主流 学 习 算 法 及 应 用 现 
状 。 最 后 总 结 了 当前 存在 的 问题 及 发 展 方 癌 。 


摘要 : 深度 学 习 ，CNN, RNN 


1. 深度 学 习 的 定义 与 背景 


机 器 学 习 是 通过 计算 模型 和 算法 从 数据 中 学 习 规律 的 一 门 学 问 , 在 各 种 需要 
从 复杂 数据 中 挖掘 规律 的 领域 中 有 很 多 应 用 , 已 成 为 当今 广义 的 人 工 智能 领域 最 
核心 的 技术 之 一 。 深度 学 习 是 机 器 学 习 领 域 一 个 新 的 研究 方向 ,近年 来 在 语音 识 
别 、 计 算 机 视觉 等 多 类 应 用 中 取得 突破 性 的 进展 。 深 度 学 习 的 概念 最 早 由 多 伦 多 
大 学 的 G. E. Hinton 等 岂 于 2006 年 提出 , 指 基于 样本 数据 通过 一 定 的 训练 方法 得 
到 包含 多 个 层级 的 深度 网 络 结构 的 机 器 学 习 过 程 。 其 动机 在 于 建立 模型 模拟 人 类 
大 脑 的 神经 连接 结构 ,在 处 理 图 像 、 声 音 和 文本 这 些 信号 时 ,通过 多 个 变换 阶段 
分 层 对 数据 特征 进行 描述 ， 进 而 给 出 数据 的 解释 。 

人 工 神 经 元 网 络 (Artificial Neural Network,ANN) 中 是 对 生物 神经 网 络 的 一 
种 模拟 和 近似 , 是 由 大 量 神经 元 通过 相互 连接 而 构成 的 自 适应 非 线性 动态 网 络 系 
统 。 从 单 层 感知 器 模型 的 提出 到 ， 反 癌 传 播 (back-propagation，BP) 算法 被 应 用 
于 训练 神经 网 络 , 解决 了 多 层 感知 器 无 法 训练 的 问题 ,从 而 使 神经 网 络 具 有 了 非 
线性 表示 能 力 ， 以 BP 算法 训练 的 多 层 感知 器 (multi-layer perceptron，MLP)DB] 成 
为 最 成 功 的 神经 网 络 模型 。 

但 神经 网 络 方法 也 存在 很 多 问题 。 首先 , 多 层 感 知 器 虽然 具有 极 强 的 非 线 性 
表示 能 力 , 但 也 因此 导致 参数 解 空 间 中 存在 大 量 的 局 部 极 值 , 使 用 梯度 下 降 法 进 
行 训练 很 容易 产生 一 个 并 不 好 的 局 部 极 小 值 , 导致 多 层 感 知 器 在 很 多 问题 上 推广 
能 力 较 差 。 其 次 ,虽然 神经 网 络 在 理论 上 可 以 有 很 多 层 , 但 多 层 神经 网 络 训练 速 
度 很 慢 ， 这 既是 因为 当时 的 硬件 条 件 限制 , 也 是 因为 多 层 神经 网 络 存在 梯度 消散 
现象 , 即 误差 在 反 向 传播 过 程 中 会 迅速 衰减 ， 导 致 对 深层 网 络 权 值 的 修正 非常 组 
慢 , 因此 人 们 实际 上 只 使 用 二 层 或 三 层 的 神经 网 络 。 对 这 些 问 题 缺乏 如 何 解雇 或 
如 何 避 免 的 理论 指导 , 实际 应 用 中 多 靠 试 算 和 经 验 , 限制 了 神经 网 络 的 进一步 发 
展 ， 使 神经 网 络 研究 走向 低谷 。Hinton 等 内 人 基于 深信 度 网 (DBN) 提出 非 监 督 
信心 逐 层 训练 算法 , 为 解决 深层 结构 相关 的 优化 难题 带 来 希望, 随后 提出 多 层 自 


动 编码 器 深层 结构 。 此 外 Lecun 等 加 人 提出 的 卷 积 神经 网 络 ( CNN) 是 第 一 个 真正 
多 层 结构 学 习 算 法 ， 它 利用 空间 相对 关系 减少 参数 数目 以 提高 BP 训练 性 能 。 此 
外 深度 学 习 还 出 现 许 多 变形 结构 如 去 噪 自 动 编码 器 、DCN 等 。 


2. 深度 学 习 在 AI 领域 的 重要 性 


2012 年 的 InageNet 竞赛 中 ，Krizhevsky 等 四 使 用 卷 积 神经 网 络 使 准确 率 提 
升 了 10%, 第 一 次 显著 地 超过 了 手工 设计 特征 加 浅 层 模型 进行 学 习 的 模式 ,在 业 
界 掀起 了 深度 学 习 的 热潮 .2015 年 , Google 旗下 DeepMind 公司 研发 的 Alpha-Go 
使 用 深度 学 习 方 法 在 围棋 比赛 中 击败 了 欧洲 围棋 冠军 , 使 得 深度 学 习 影 响 日 益 广 
泛 。 如 今 ， 以 ChatGPT 为 代表 的 生成 性 人 工 智 能 推动 着 AI 时 代 的 快速 发 展 。 
改变 了 人 们 的 沟通 方式 : Chat GPT 是 一 种 基于 人 工 智能 技术 的 语言 模型 ， 它 能 
够 模拟 人 类 的 语言 和 行为 ， 实 现 人 机 交互 。 通 过 Chat GPT， 人 们 可 以 更 加 便捷 
地 与 计算 机 进行 交流 , 这 使 得 人 机 交互 变 得 更 加 自然 和 流畅 。 这 种 交互 方式 的 改 
变 不 仅 提 高 了 沟通 效率 , 还 拓宽 了 人 类 的 交流 渠道 ,推动 了 人 工 智能 技术 的 发 展 : 
Chat GPT 的 出 现 是 人 工 智能 技术 发 展 的 一 个 里 程 牧 ， 它 不 仅 展示 了 人 工 智 能 在 
自然 语言 处 理 方面 的 强大 能 力 , 还 为 后 续 的 人 工 智能 技术 发 展 提供 了 新 的 思路 和 
方法 。 通 过 Chat GPT， 人 们 可 以 更 加 深入 地 了 解 人 工 智能 技术 的 原理 和 应 用 ， 
从 而 推动 人 工 智能 技术 的 进一步 发 展 。 改变 了 信息 获取 和 传递 的 方式 : Chat GPT 
可 以 自动 学 习 和 理解 人 类 的 语言 , 通过 自然 语言 处 理 技术 对 信息 进行 分 类 、 分 析 
和 提取 ， 从 而 为 用 户 提供 更 加 精准 和 高 效 的 信息 服务 。 这 使 得 信息 获取 和 传递 的 
方式 发 生 了 重大 变革 ， 人 们 可 以 更 加 便捷 地 获取 自己 需要 的 信息 , 提高 了 信息 利 
用 的 效率 和 准确 性 。Chat GPT 的 出 现 对 当今 社会 产生 了 广泛 而 深远 的 影响 ， 推 
动 了 人 机 交互 、 人 工 智 能 技术 、 信 息 获 取 和 传递 等 方面 的 变革 。 人 们 对 人 工 智 能 
的 关注 达到 了 前 所 未 有 的 程度 。 


~ 


二 、 深 度 学 习 基 本 原理 


深度 学 习 最 常用 于 各 种 监督 模式 识别 问题 , 比如 图 像 识 别 、 自 然 语 言 识别 等 。 
在 讨论 深度 学 习 的 典型 模型 之 前 , 我 们 先 来 讨论 作为 各 种 深度 学 习 模型 和 算法 共 
同 基 础 的 核心 学 习 算法 。 一 般 地 ， 深 度 神 经 网 络 包含 输入 层 、 多 个 隐 含 层 以 及 输 
出 层 , 传统 多 层 感知 器 神经 网 络 训练 的 反 向 传播 (BP) 算法 仍然 是 深度 神经 网 络 


训练 的 核心 算法 ， 它 包括 信息 的 前 向 传播 过 程 和 误差 梯度 的 反 向 传播 过 程 四 。 


2.1 神经 元 


神经 元 是 人 工 神 经 网 络 的 基本 处 理 单元 ， 神 经 元 的 M-P 模型 如 图 所 示 : 
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1 神经 元 的 M-P 结构 图 
图 中 ，x,(i=1,2,.…n) 表示 神经 元 的 输入 ，w,(i =1,2,.…n) 表示 输入 信号 与 连 
接 神 经 元 之 间 的 权重 值 ，b 表示 偏 置 ， 神 经 元 的 输出 可 表示 为 : 


y= f(D wa,+b) 


基 函 数 等 。 
2. 2 多 层 感 知 机 


多 层 感 知 器 的 基本 结构 如 图 2 所 示 , 多 层 感知 器 有 前 癌 传 播 与 反 回 传播 两 个 
过 程 。 

输入 层 神经 元 接收 输入 信号 , 隐 含 层 和 输出 层 的 每 一 个 神经 元 与 之 相 邻 层 的 
所 有 神经 元 连接 ， 即 全 连接 ， 同 一 层 的 神经 元 间 不 相连 。 图 2 中 ， 有 箭头 的 线段 
表示 神经 元 间 的 连接 和 信号 传输 的 方向 ， 且 每 个 连接 都 有 一 个 连接 权 值 . 隐 含 层 
和 输出 层 中 每 一 个 神经 元 的 输入 为 前 一 层 所 有 神经 元 输出 值 的 加 权 和 。 
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图 2 多 层 感 知 器 的 结构 

言 号 在 网 络 中 前 向 传播 的 过 程 ,每 个 节点 中 都 包含 2 步 操 作 , 先 对 上 一 层 节 点 
输出 值 进行 线性 组 合 , 再 对 得 到 的 中 间 值 进行 非 线 性 变换 后 输出 。 对 于 1 个 输入 
样本 ,经 过 上 述 2 步 操 作 可 以 得 到 第 1 层 隐 含 节点 的 输出 值 ， 隐 含 节点 输出 值 就 
是 特征 的 某 种 抽象 表示 ， 可 以 重复 这 个 过 程 得 到 更 深层 次 的 隐 含 节点 值 ， 越 深层 
次 的 隐 含 节点 所 表示 的 特征 越 抽象 ,对 于 最 后 一 层 隐 含 节 点 ， 可 以 连接 到 输出 层 
中 进行 分 类 并 输出 。 

当 输 出 结果 与 真实 标签 相等 时 损失 为 零 , 二 者 相差 越 大 损失 函数 值 越 大 ， 常 
见 的 损失 函数 有 二 次 损失 、 对 数 损 失 等 。 在 训练 样本 上 的 总 损失 是 监督 学 习 中 的 
优化 目标 ,常用 梯度 下 降 法 优化 这 个 目标 ， 这 个 过 程 就 是 机 器 的 “学 习 ” 或 用 样本 
对 机 器 的 “训练 ”外 。 


2. 3 反 向 传播 算法 


要 对 神经 网 络 各 层 的 参数 进行 训练 ,需要 计算 损失 对 网 络 中 间 各 层 参数 的 梯 
度 ，BP 算法 就 是 把 损失 从 输出 层 逐 层 往 前 传递 , 这 个 过 程 叫 做 误差 的 反 癌 传播。 
算法 的 核心 是 用 链 式 求 导 法 从 输出 层 逐 层 向 前 计算 损失 函数 对 隐 含 节点 输出 值 
的 梯度 和 对 连接 权重 的 梯度 。 将 连接 权重 向 负 梯 度 方向 适度 调整 得 到 新 一 轮 的 参 
数 。 用 大 量 样本 如 此 循环 训练 多 次 , 直到 损失 函数 不 再 下 降 或 达到 设 定 的 碗 代 次 
数 ,就 完成 了 神经 网 络 的 训练 过 程 。 
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图 3 网 络 的 反 向 传播 


2.4 激活 函数 与 非 线性 变换 


激活 函数 (Activation Function ) M9 是 一 种 添加 到 人 工 神经 网 络 中 的 函数 ,由 
在 帮助 网 络 学 习 数 据 中 的 复杂 模式 。 在 神经 元 中 ， 输 入 的 input 经 过 一 系列 加 权 
求 和 后 作用 于 另 一 个 函数 ,这 个 函数 就 是 这 里 的 激活 函数 。 激活 函数 可 以 分 为 线 
性 激活 函数 (线性 方程 控制 输入 到 输出 的 映射 ， 如 f(x)=x 等 ) 以 及 非 线 性 激活 函 
数 ( 非 线性 方程 控制 输入 到 输出 的 映射 ， 比 如 Sigmoid、Tanh、ReLU、LReLUI1 
等 ) 。 一 般 来 说 ， 在 神经 元 中 ,激活 函数 是 很 重要 的 一 部 分 ,为 了 增强 网 络 的 表 
示 能 力 和 学 习 能 力 , 神经 网 络 的 激活 函数 都 是 非 线 性 的 , 通常 具有 以 下 几 点 性 质 : 

续 并 可 导 《 人 允许 少数 点 上 不 可 导 ) ， 可 导 的 激活 函数 可 以 直接 利用 数值 优化 的 

方法 来 学 习 网 络 参数 ; 激活 函数 及 其 导数 要 尽 可 能 简单 一 些 ， 太 复杂 不 利于 提高 
网 络 计算 率 ; 激活 函数 的 导 函 数值 域 要 在 一 个 合适 的 区 间 内 ,不 能 太 大 也 不 能 
小 ， 和 否则 会 影响 训练 的 效率 和 稳定 性 。 和 常用 的 激活 函数 有 
2.4.1 Sigmoid 函数 

Sigmoid02 函 数 也 叫 Logistic 函数 ， 用 于 隐 层 神经 元 输出 ， 取 值 范 围 为 (0,1)， 
它 可 以 将 一 个 实数 映射 到 (0,1D) 的 区 间 ， 可 以 用 来 做 二 分 类 。 在 特征 相差 比较 复杂 
或 是 相差 不 是 特别 大 时 效果 比较 好 。Sigmoid 是 一 个 十 分 常见 的 激活 函数 ， 函 数 
的 表达 式 如 下 : 


小 


晴 


图 像 如 下 : 


图 4 Sigmoid 函数 图 像 
Sigmoid 函数 的 输出 范围 是 0 到 1。 由 于 输出 值 限 定 在 0 到 1， 因 此 它 对 每 
个 神经 元 的 输出 进行 了 归 一 化 ; 适用 于 将 预测 概率 作为 输出 的 模型 。 由 于 概率 的 
取 值 范围 是 0 到 1， 因 此 Sigmoid 函数 非常 合适 ;梯度 平滑 ， 避 免 跳跃 的 输出 


值 ;函数 是 可 微 的 。 这 意味 着 可 以 找到 任意 两 个 点 的 Sigmoid 曲线 的 斜率 ; 明确 
的 预测 ， 即 非常 接近 1 或 0。 

Sigmoid 激活 函数 存在 的 不 足 : 存在 梯度 消失 现象 。Sigmoid 函数 趋 近 0 和 
1 的 时 候 变 化 率 会 变 得 平坦 ， 也 就 是 说 ，Sigmoid 的 梯度 趋 近 于 0。 神 经 网 络 使 
用 Sigmoid 激活 函数 进行 反 向 传播 时 ,输出 接近 0 或 1 的 神经 元 其 梯度 趋 近 于 0。 
这 些 神经 元 叫 作 饱和 神经 元 。 因 此 ， 这 些 神经 元 的 权重 不 会 更 新 。 此 外 ， 与 此 类 
神经 元 相连 的 神经 元 的 权重 也 更 新 得 很 慢 。 该 问题 叫 作 梯度 消失 。 因 此 ， 如 果 一 
个 大 型 神经 网 络 包含 Sigmoid 神经 元 ， 而 其 中 很 多 个 都 处 于 饱和 状态 ， 那 么 该 
网 络 无 法 执行 反 向 传播 。 不 以 零 为 中 心 ，Sigmoid 输出 不 以 零 为 中 心 的 ,， 输 出 
恒 大 于 0, 非 零 中 心 化 的 输出 会 使 得 其 后 一 层 的 神经 元 的 输入 发 生 偏 置 偏 移 (Bias 
Shift) ， 并 进一步 使 得 梯度 下 降 的 收敛 速度 变 慢 。 计 算 成 本 高 昂 ，exp0 函 数 与 其 
他 非 线 性 激活 函数 相 比 ， 计 算 成 本 高 晶 ， 计 算 机 运行 起 来 速度 较 慢 。 


2. 4. 2 Tanh 双 曲 正切 函数 


Tanh 激活 函数 又 叫 作 双 曲 正切 激活 函数 (hyperbolic tangent activation 
function) 。 与 Sigmoid 函数 类 似 ，Tanh 函数 也 使 用 真 值 ， 但 Tanh 函数 将 其 
压缩 至 -1 到 1 的 区 间 内 。 与 Sigmoid 不 同 ，Tanh 函数 的 输出 以 零 为 中 心 ， 因 
为 区 间 在 -1 到 1 之 间 。 

函数 表达 式 为 : 


E eee” _ 2 
fl) tanh(z) ez 二 ez Te-22 1 


5 tanh 函数 图 像 


3. 4. 3 ReLU 激活 函数 


ReLU 函数 又 称 为 修正 线性 单元 (Rectified Linear Unit) ， 是 一 种 分 段 线性 
函数 ， 其 弥补 了 sigmoid 函数 以 及 tanh 函数 的 梯度 消失 问题 , 在 目前 的 深度 神经 
网 络 中 被 广泛 使 用 。ReLU 函数 本 质 上 是 一 个 斜坡 (ramp) 函数 ， 公 式 及 函数 图 
像 如 下 : 


fe) -1 ,TZ >=0 


Q nwa0 
ReLU 激活 函数 的 提出 就 是 为 了 解决 梯度 消失 问题 ，LSTMs 也 可 用 于 解决 
梯度 消失 问题 (但 仅 限 于 RNN 模型 )。ReLU 的 梯度 只 可 以 取 两 个 值 : 0 或 1， 当 
输入 小 于 0 时 ， 梯 度 为 0;， 当 输入 大 于 0 时， 梯度 为 1。 好 处 就 是 : ReLU 的 梯 
度 的 连 乘 不 会 收敛 到 0 ， 连 乘 的 结果 也 只 可 以 取 两 个 值 : 0 或 1 ， 如 果 值 为 1 ， 
梯度 保持 值 不 变 进行 前 向 传播 ， 如 果 值 为 0 ,梯度 从 该 位 置 停止 前 向 传播 。 


图 6ReLU 函数 


三 、 深 度 学 习 的 主要 技术 


3. 1 卷 积 神经 网 络 (CNN) 


CNN 03] 的 基本 结构 由 输入 层 、 卷 积 层 (convolutional layer)、 池 化 层 ( pooling 
layer， 也 称 为 取样 层 )、 全 连接 层 及 输出 层 构 成 . 卷 积 层 和 池 化 层 一 般 会 取 若 干 个 ， 
采用 卷 积 层 和 池 化 层 交 蔡 设 置 ， 即 一 个 卷 积 层 连接 一 个 池 化 层 , 池 化 层 后 再 连接 
一 个 卷 积 层 依 此 类 推 .由 于 卷 积 层 中 输出 特征 面 的 每 个 神经 元 与 其 输入 进行 局 部 
连接 ,并 通过 对 应 的 连接 权 值 与 局 部 输入 进行 加 权 求 和 再 加 上 偏 置 值 , 得 到 该 神 
经 元 输入 值 ， 该 过 程 等 同 于 卷 积 过 程 ，CNN 也 由 此 而 得 名 。 


3.1.1 卷 积 层 的 工作 原理 

卷 积 层 由 多 个 特征 面 (Feature Map) 组 成 ， 每 个 特征 面 由 多 个 神经 元 组 成 ， 它 
的 每 一 个 神经 元 通过 卷 积 核 与 上 一 层 特征 面 的 局 部 区 域 相连 。 卷 积 核 是 个 权 值 矩 
阵 ( 如 对 于 二 维 图 像 而 言 可 为 3* 3 或 $*5 矩阵 )。CNN 的 卷 积 层 通过 卷 积 操作 提 
取 输 入 的 不 同 特征 ， 第 1 层 卷 积 层 提取 低级 特征 如 边缘 、 线 条 、 和 角落， 更 高 层 的 
卷 积 层 提 取 更 高 级 的 特征 。 


3.1.2 池 化 层 的 作用 

池 化 层 紧 跟 在 卷 积 层 之 后 ,同样 由 多 个 特征 面 组 成 , 它 的 每 一 个 特征 面 唯一 
对 应 于 其 上 一 层 的 一 个 特征 面 ， 不 会 改变 特征 面 的 个 数 . 卷 积 层 是 池 化 层 的 输入 
层 ， 卷 积 层 的 一 个 特征 面 与 池 化 层 中 的 一 个 特征 面 唯 一 对 应 ， 且 池 化 层 的 神经 元 
也 与 其 输入 层 的 局 部 接受 域 相 连 ， 不 同 神经 元 局 部 接受 域 不 重 登 . 池 化 层 旨 在 通 
过 降低 特征 面 的 分 辨 率 来 获得 具有 空间 不 变性 的 特征 . 池 化 层 起 到 二 次 提取 特征 
的 作用 ， 它 的 每 个 神经 元 对 局 部 接受 域 进行 池 化 操作 .常用 的 池 化 方法 有 最 大 池 
化 即 取 局 部 接受 域 中 值 最 大 的 点 、 均 值 池 化 即 对 局 部 接受 域 中 的 所 有 值 求 均值 、 
随机 池 化 。Boureau 等 0 人 给 出 了 关于 最 大 池 化 和 均值 池 化 详细 的 理论 分 析 ， 通 
过 分 析 得 出 以 下 一 些 预测 : (1) 最 大 池 化 特别 适用 于 分 离 非常 稀 玻 的 特征 ; (2) 使 
用 局 部 区 域内 所 有 的 采样 点 去 执行 池 化 操作 也 许 不 是 最 优 的 , 例如 均值 池 化 就 利 
用 了 局 部 接受 域内 的 所 有 采样 点 。Boureau 等 9 人 比较 了 最 大 池 化 和 均值 池 化 两 


种 方法 ， 通 过 实验 发 现 ， 当 分 类 层 采用 线性 分 类 器 如 线性 SVM 时 ， 最 大 池 化 
方法 比 均值 池 化 能 够 获得 一 个 更 好 的 分 类 性 能 。 


3.1.3 全 连接 层 

在 CNN 结构 中 ， 经 多 个 卷 积 层 和 池 化 层 后 ， 连 接着 1 个 或 1 个 以 上 的 全 
连接 层 与 MLP 类 似 ， 全 连接 层 中 的 每 个 神经 元 与 其 前 一 层 的 所 有 神经 元 进行 全 
连接 。 全 连接 层 可 以 整合 卷 积 层 或 者 池 化 层 中 具有 类 别 区 分 性 的 局 部 信息 。 为 了 
提升 CNN 网 终 性 能 ， 全 连接 层 每 个 神经 元 的 激励 函数 一 般 采 用 ReLU 函数 。 最 
后 一 层 全 连接 层 的 输出 值 被 传递 给 一 个 输出 层 ， 可 以 采用 softmax 逻辑 回归 


(softmax-regressiom) 进 行 分 类 ， 该 层 也 可 称 为 softmax 层 (softmax layer)。 


3.2 循环 神经 网 络 (RNN) 与 长 短期 记忆 网 络 (LSTM) 


循环 神经 网 络 (RNN) 09 是 一 类 非常 强大 的 用 于 处 理 和 预测 序列 数据 的 神经 
网 络 模型 。 循 环 结构 的 神经 网 络 克服 了 传统 机 器 学 习 方 法 对 输入 和 输出 数据 的 许 
多 限制 ， 使 其 成 为 深度 学 习 领 域 中 一 类 非常 重要 的 模型 。RNN 及 其 变 体 网 络 已 
经 被 成 功 应 用 于 多 种 任务 , 尤其 是 当 数 据 中 存在 一 定时 间 依 赖 性 的 时 候 。 语音 识 
别 、 机 器 翻译 、 语 言 模 型 、 文 本 分 类 、 词 向 量 生 成 、 信 息 检 索 等 ， 都 需要 一 个 模 
型 能 够 将 具有 序列 性 质 的 数据 作为 输入 进行 学 习 。RNN 通常 难以 训练 ， 循 环 多 
次 之 后 , 大 多 数 情况 下 梯度 往往 倾向 于 消失 , 也 有 较 少 情况 会 发 生 梯度 爆炸 的 问 
题 。 针 对 RNN 在 实际 应 用 中 存在 的 问题 ， 长 短期 记忆 ( LSTM) 网 络 被 提出 ， 它 
能 够 保持 信息 的 长 期 存储 而 备 受 关注 。 


3.2.1RNN 的 工作 机 秆 
RNN 是 深度 学 习 领 域 中 一 类 特殊 的 内 部 存在 自 连 接 的 神经 网 络 ,可 以 学 习 
复杂 的 矢量 到 矢量 的 映射 。RNN 的 网 络 结构 如 图 : 


Me 


时 间 步 


7 RNN 网 络 结构 


通过 隐藏 层 上 的 回路 接 , 使 得 前 一 时 刻 的 网 络 状态 能 够 传递 给 当前 时 刻 ， 当 
前 时 刻 的 状态 也 可 以 传递 给 下 个 时 刻 。 可 以 将 RNN 看 作 所 有 层 共 享 权 值 的 深 
度 FNN, 通 过 连接 两 个 时 间 步 来 扩展 。 参 数 共享 的 概念 早 在 隐 马 尔 可 夫 模 型 
Hidden Markov Model，HMM) 中 就 已 经 出 现 ，HMM 也 常用 于 京 列 数据 建 模 并 
且 在 语音 识别 领域 一 度 取得 很 好 的 效果 。HMM 和 RNN 均 使 用 内 部 状态 来 表 
示 序 列 中 的 依赖 关系 。 当 时 间 序 列 数据 存在 长 距离 的 依赖 , 并 且 该 依赖 的 范围 随 
时 间 变 化 或 者 未 知 ， 那 么 RNN 可 能 是 相对 较 好 的 解决 方案 。 展 开 后 的 RNN 结 
构 如 下 : 


Ba pl 4 
图 


8 RNN 展开 后 的 结构 

对 于 RNN 的 输入 和 输出 ,下 图 中 :(a) 表 示 传 统 的、 固定 尺度 的 输入 到 固定 尺 
度 的 输出 ; (pb) 序 列 输入 ， 可 用 于 表示 例如 情感 分 析 等 任务 ， 给 定 句 子 然后 将 其 
与 一 个 情感 表示 向 量 关 联 : (c) 序 列 输出 ,可 以 用 于 表示 图 片 标注 等 任务 , 输入 固 
定 大 小 的 向 量 表示 的 图 片 输出 图 片 描 述 ; (d) 和 (e) 中 的 输入 和 输出 均 为 序列 数据 ， 
目 输入 和 输出 分 别 为 非 同步 和 同步 ，(d) 可 以 用 于 机 器 翻译 等 任务 ，(e) 常 用 于 语 


me 
时 口 


(a) 固定 输入 输出 。 (b) 序列 数据 分 类 (c) 图 片 描述 


ma Ee 


(d) 机 器 翻译 (e) 语音 识别 
图 9 RNN 的 输入 和 输出 

实际 应 用 中 ，RNN 常常 面临 训练 方面 的 难题 ;尤其 随 着 模型 深度 不 断 增加 ， 
使 得 RNN 并 不 能 很 好 地 处 理 长 距离 的 依赖 。Jacobian 矩阵 的 乘积 往往 会 以 指数 
级 增 大 或 者 减 小 ,其 结果 是 使 得 长 期 依赖 特别 困难 。RNN 在 反 向 传播 时 ， 由 于 参 


数 共 享 和 多 次 连 乘 的 特性 ,容易 出 现 梯 度 消 失 或 梯度 爆炸 的 问题 ， 导 致 模型 难以 
训练 或 无 法 收敛 。 


3.2.2 LSTM 如 何 解决 RNN 的 梯度 消失 问题 

目前 ， 在 实际 应 用 中 使 用 最 广泛 的 循环 结构 网 络 架 构 是 LSTM(Long 
Short-Term Memory)t1"1， 它 能 够 有 效 克 服 RNN 中 存在 的 梯度 消失 问题 ,尤其 在 
长 距离 依赖 的 任务 中 的 表现 远 优 于 RNNG, 梯 度 反 向 传播 过 程 中 不 会 再 受到 梯度 
消失 问题 的 困扰 ， 可 以 对 存在 短期 或 者 长 期 依赖 的 数据 进行 精确 的 建 模 。LSTM 
的 工作 方式 与 RNN 基本 相同 区 别 在 于 LSTM 实现 了 一 个 更 加 细 化 的 内 部 处 
理 单元 ， 来 实现 上 下 文 信息 的 有 效 存储 和 更 新 。 

LSTM 单元 结构 如 下 : 


图 10 LSTM 单元 结构 如 下 
LSTM 单元 中 有 三 种 类 型 的 门 控 ， 分别 为 :输入 门 、 遗 忘 门 和 输出 门 。 门 控 
可 以 看 作 一 层 全 连接 层 ,ISTM 对 信息 的 存储 和 更 新 正 是 由 这 些 门 控 来 实现 。 更 具 


体 地 说 ， 门 控 是 由 sigmoid 函数 和 点 乘 运算 实现 ， 门 控 并 不 会 提供 额外 的 信息 。 
门 控 的 一 般 形式 可 以 表示 为 : 


g(x)=o(Wx+b) 


LSTM 的 计算 过 程 如 下 : 
i =o(W,x, +W,,h,, +b) 


f=o(W,x, + Wh + b/) 


c=foc, t+iotanh(W x,+W,.h +b.) 


Xe 


0,=o(W, x, +W,,h +b,) 


xo” 1 ho' ‘1t-—l 


h, =0,°tanh(c,) 


遗忘 门 是 LSTM 单元 的 关键 组 成 部 分 ， 可 以 控制 哪些 信息 要 保留 哪些 要 遗 
并 且 以 茶 种 方式 避免 当 梯度 随时 间 反 回 传 播 时 引发 的 梯度 消失 和 爆炸 问题 。 


下 
遗忘 门 控制 自 连 接 单元 , 可 以 决定 历史 信息 中 的 哪些 部 分 会 被 丢弃 。 即 上 一 时 刻 


记忆 单元 c ,中 的 信息 对 当前 记忆 单元 c 的 影响 。 
3.3 生成 对 抗 网 络 (GAN) 


生成 式 对 抗 网 络 GAN (Generative adversarial networks)L8 目 前 已 经 成 为 人 工 
智能 学 界 一 个 热门 的 研究 方向 。GAN 的 基本 思想 源 自 博 询 论 的 二 人 零 和 博 底 ， 
即 二 人 的 利益 之 和 为 零 , 一 方 的 所 得 正 是 另 一 方 的 所 失 。 由 一 个 生成 器 和 一 个 判 
别 器 构成 ， 生 成 器 捕捉 真实 数据 样本 的 潜在 分 布 , 并 生成 新 的 数据 样本 ; 判别 器 
是 一 个 二 分 类 器 , 判别 输入 是 真实 数据 还 是 生成 的 样本 . 生成 器 和 判别 器 均 可 以 
采用 目前 研究 火热 的 深度 神经 网 络 , 通过 对 抗 学 习 的 方式 来 训练 。 目 的 是 估 测 数 
据 样本 的 潜在 分 布 并 生成 新 的 数据 样本 。 优 化 过 程 是 一 个 极 小 极 大 博弈 
(Minimax game) 问题 ,优化 目标 是 达到 纳什 均衡 , 使 生成 器 估 测 到 数据 样本 的 
分 布 。 


3.3.1 GAN 的 基本 结构 和 工作 原理 

GAN 的 核心 思想 来 源 于 博 询 论 的 纳什 均衡 。 它 设 定 参与 游戏 双方 分 别 为 一 
个 生成 器 (Generator 和 一 个 判别 器 (Discriminator)， 生 成 器 的 目的 是 尽量 去 学 习 
真实 的 数据 分 布 , 而 判别 器 的 目的 是 尽量 正确 判别 输入 数据 是 来 自 真 实数 据 还 是 
来 自生 成 器 为 了 取得 游戏 胜利 ， 这 两 个 游戏 参与 者 需要 不 断 优化 , 各 自 提 高 自己 
的 生成 能 力 和 判别 能 力 ， 这 个 学 习 优 化 过 程 就 是 寻找 二 者 之 间 的 一 个 纳什 均 
衡 .GAN 的 计算 流程 与 结构 如 图 所 示 . 任意 可 微分 的 函数 都 可 以 用 来 表示 GAN 
的 生成 器 和 判别 器 ， 由 此 我 们 用 可 微分 函数 D 和 G 来 分 别 表示 判别 器 和 生成 
器 ， 它 们 的 输入 分 别 为 真实 数据 x 和 随机 变量 z。 


随机 噪声 = | 一 : 


| 
判别 模型 D 人 


图 11 GNN 原理 图 
GC) 则 为 由 G 生成 的 尽量 服从 真实 数据 分 布 pdata 的 样本 ， 如 果 判别 器 的 箱 
入 来 自 真实 数据 ， 标 注 为 1。 如 果 输入 样本 为 G(z)， 标 注 为 0。 这 里 D 的 目标 是 


实现 对 数据 来 源 的 二 分 类 判别 : 真 (来 源 于 真实 数据 x 的 分 布 ) 或 者 伪 ( 来 源 于 生 
成 器 的 伪 数 据 G(z)。 而 G 的 目标 是 使 自己 生成 的 伪 数 据 G(z) 在 D 上 的 表现 
D(G(z)) 和 真实 数据 a 在 D 上 的 表现 D(a) 一 致 ， 这 两 个 相互 对 抗 并 欠 代 优化 的 
过 程 使 得 D 和 G 的 性 能 不 断 提 升 ， 当 最 终 D 的 判别 能 力 提 升 到 定 程度 ， 并 且 无 
法 正确 判别 数据 来 源 时 ， 可 以 认为 这 个 生成 器 G 已 经 学 到 了 真实 数据 的 分 布 。 

对 于 GAN 的 学 习 过 程 , 我 们 需要 训练 模型 D 来 最 大 化 判别 数据 来 源 于 真实 
数据 或 者 伪 数 据 分布 G(z) 的 准确 率 ， 同时, 我 们 需要 训练 模型 G 来 最 小 化 log(1 
- D(G(z))). 这 里 可 以 采用 交 优化 的 方法 :” 先 固定 生成 器 G， 优 化 判别 器 D， 使 得 
D 的 判别 准确 率 最 大 化 ， 然 后 固定 判别 器 D， 优 化 生成 器 G， 使 得 DD 的 判别 准 
确 率 最 小 化 。 当 且 仅 当 Pdata =p 时 ， 达 到 全 局 最 优 解 。 训 练 GAN 时 ， 同 一 轮 参 
数 更 新 中 ， 一 般 对 D 的 参数 更 新 k 次 再 对 G 的 参数 更 新 1 次 。 

GAN 对 于 生成 式 模型 的 发 展 具 有 重要 的 意义 ，GAN 作为 一 种 生成 式 方法 ， 
有 效 解决 了 可 建立 自然 性 解释 的 数据 的 生成 难题 尤其 对 于 生成 高 维 数据 所 采用 
的 神经 网 络 结构 不 限制 生成 维度 ， 大 大 拓宽 了 生成 数据 样本 的 范围 .所 采用 的 神 
经 网 络 结构 能 够 整合 各 类 损失 函数 ， 增 加 了 设计 的 自由 度 。 


四 、 未 来 展望 与 研究 方向 


深度 学 习 已 成 功 应 用 于 多 种 模式 分 类 问题 。 这 一 领域 虽 处 于 发 展 初 期 ,但 它 
的 发 展 无 疑 会 对 机 器 学 习 和 人 工 智 能 系统 立 生 影响 。 同时 它 仍 存在 某 些 不 适合 处 
理 的 特定 任务 ， 璧 如 语言 辨识 ,生成 性 预 训练 提取 的 特征 仅 能 描述 潜在 的 语音 变 
化 不 会 包含 足够 的 不 同 语言 间 的 区 分 性 信息 ;虹膜 识别 等 每 类 样本 仪 含 单个 样本 
的 模式 分 类 问题 也 是 不 能 很 好 完成 的 任务 。 


深度 学 习 目 前 仍 有 大 量 工作 需要 研究 。 模型 方面 是 否 有 其 他 更 为 有 效 且 有 理 
论 依据 的 深度 模型 学 习 算法 ,探索 新 的 特征 提取 模型 是 值得 深入 研究 的 内 容 。 此 
外 有 效 的 可 并 行 训练 算法 也 是 值得 研究 的 一 个 方向 ,当前 基于 最 小 批 处 理 的 随机 
梯度 优化 算法 很 难 在 多 计算 机 中 进行 并 行 训练 。 通 常 办 法 是 利用 图 形 处 理 单元 加 
速 学 习 过 程 , 然而 单个 机 器 GPU 对 大 规模 数据 识别 或 相似 任务 数据 集 并 不 适用 。 
在 深度 学 习 应 用 拓展 方面 , 如 何 充 分 合理 地 利用 深度 学 习 在 增强 传统 学 习 算 法 的 
性 能 仍 是 目前 各 领域 的 研究 重点 。 
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